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Паралельні неявні блокові методи чисельного 
розв'язання жорстких динамічних задач 
із зосередженими параметрами 


Запропоновано паралельні неявні однокрокові блокові методи чисельного розв'язання жорстких задач 
Коші із оцінкою локальної апостеріорної похибки. Розроблено схеми відображення методів на паралельні 
структури з розподіленою пам'яттю та топологіями: кільце, сітка/тор, гіперкуб. Досліджено потенційний 
та реальний паралелізм, визначені класи паралельних систем для ефективної реалізації обчислювального 
процесу на базі розроблених методів. 


Вступ 


Дослідження методів розв'язання динамічних задач із зосередженими парамет- 
рами (1-3| виявили, що паралельні властивості таких методів багато в чому визнача- 
ються видом чисельної схеми, покладеної в основу. Найменш трудомісткими є явні 
методи, проте властиві цим схемам недоліки, зокрема умовна стійкість, істотно обме- 
жують сферу їх застосування. У зв'язку із цим значний інтерес мають неявні схеми, 
які, не дивлячись на велику обчислювальну складність, не мають альтернативи серед 
однокрокових методів при вирішенні жорстких задач |41. 

У статті розглядається чисельне розв'язання задачі Коші, асоційоване з розв'я- 
занням систем звичайних диференційних рівнянь (СЗДР) першого порядку із відо- 
мими початковими умовами: 


фо 
о УО - 
УСо) З Хо» 


де права частина системи є в загальному випадку нелінійна функція, що задає відо- 
браження КГ « /:Ех Ю" -» Б", 

Блокові багатоточкові методи вирішення динамічних задач є особливо актуаль- 
ними, бо добре узгоджуються з архітектурою паралельних обчислювальних систем 
(ОС) і не вимагають обчислення значень в проміжних вузлах, що значно підвищує 
ефективність розрахунків. Дані методи володіють достатніми характеристиками 
стійкості і є по своїй суті паралельними (5, (6), оскільки дозволяють отримувати 
розв'язок одночасно в декількох точках сітки інтегрування. 


Множина точок рівномірної сітки 02, : їх ' М 7-5М розбивається на М блоків. 


Кожен блок містить К точок і при цьому М « М. Передбачається, що в межах блоку всі 
точки рівновіддалені одна від однієї: 


ха ЗХ У ізЬк, 0) 


ж 79 «Йокусственньшй интеллект» 3:2009 
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де і - номер точки в блоці і - 1,К є 
п - номер блоку п- М; 
Ху: - ТОЧКАа з номером і, що належить блоку п; 
х,.о 7 ПОЧаткова точка п-го блоку; 
Х,х - Кінцева точка п-го блоку. 
Множина точок и -го блоку з Кк точок позначається як Т, Ам 7, При цьому має місце 
рівність: ху З Хочо (РИС. 1). Нехай у, , є наближене значення рішення задачі Коші в 


ТОЧЦІ Х, о - ПОЧатковій точці оброблюваного блоку. 


Хаотк ЗО Хп,0 Хо І Хп,2 Ха ГО Хач1,0 Хі, 
оо 
ю) к) Кк) 
уд ум т 


Рисунок 1 - Схема розбиття на блоки для однокрокового Х -точкового методу 


Рівняння однокрокових блокових різницевих методів у вживанні до ЗДР для 
блоку з Кк точок можуть бути записані таким чином: 


укауковній Ен ав феїкпеїМ. (3) 


Розкладом в ряд Тейлора функцій, що входять у нев'язку, можна показати, що 
однокроковий К-точковий блоковий метод має найбільший порядок апроксимації, 
рівний 2-1, отже, локальна помилка у вузлах блоку має порядок О(/".) (51, 16). 
Блокові паралельні методи відносяться до класу неявних, тому для обчислення 
наближеного розв'язку задачі Коші необхідно вирішити систему - в загальному 
випадку нелінійних -- рівнянь. Одним із засобів здобуття розв'язку є метод простої 
функціональної ітерації: 


пі, 0 7 по БЙЕм Їзз 1,К, ПРЕ 1,2,,...М, 


ІЗ РРИРВИЕНОМИ. 4 
рано т т о фр3о томи І «0.1.1, ї 
р 


де п - номер блоку, п - /,4,...,М; 
і - номер точки блоку, із- 1,К з 
І - номер поточної ітерації / -0,2-1; 
І, - максимальне число ненульових ітерацій. 
На відміну від явних методів вирішення СЗДР, реалізація альтернативних за- 
собів оцінки апостеріорної локальної похибки на основі блокових методів пов'язана 
із рядом особливостей: 


- немає відповідних послідовних аналогів, отже, потрібно розробити і обгрунтувати 
метод оцінки локальної похибки; 
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- зміна кроку інтегрування можлива лише після виконання обчислень у всіх К вуз- 
лах поточного п -го блоку; 

- за умови незадовільної оцінки локальної похибки практично усі обчислення для 
точок блоку виявляються даремними (тільки деякі звернення до правої частини 
СЗДР можуть бути використані знову). 

Розглянемо ефективність паралельної реалізації правила дублювання кроку у 
блокових однокрокових методах інтегрування ЗДР. Нехай розв'язання задачі Коші 
для ЗДР виконується на основі К -точкового однокрокового блокового методу. Реалі- 
зація правила дублювання кроку потребує провести обчислення за однією і тією ж 
групою формул, що мають такий вигляд (3): 


К каеанне 
ук З Уко НУ ВОГО об Уа ау) п ЬМ, іс 
узі 
й (5) 
и зу НВ ЛО уро) 2 ГУ) п МІ, із, 
їі 


на двох різних рівномірних сітках: 


13:00;-2- у х.р/-1,М з кроком п у М блоках; 
РАТЕ ФА Їх, І - 1, МИ з половинним кроком у МІ блоках. 


На рис. 2 наведена схема обчислень при використанні правила Рунге для одно- 
крокового блокового « -точкового методу. Апроксимація вирішення з одинарним кро- 


ком позначається у"), а з половинним, відповідно, у). Точки п-го блоку сітки 0, 


1 . . . . . 
складають множину Т"), асітки О,,, - Т2). Оскільки кількість точок в блоці для 


обох сіток дорівнює (, то для одного й того ж інтервалу інтегрування число блоків 
другої сітки точно у два рази більше, ніж для першої. Основою розрахунку при 
інтегруванні є сітка (2,, при цьому кожен вузол з парним номером в блоках сітки 


О,), використовується для обчислення оцінки локальної похибки на цьому кроці. 


Більш того, як розв'язок у цих вузлах приймається апроксимація, отримана з поло- 
винним кроком або екстрапольована як найбільш точна. Вузли сітки (2, З 


непарними номерами використовуються лише як допоміжні. Дані методи є неяв- 
ними, тому вживання правила Рунге до блокових однокрокових методів вимагає роз- 
в'язання трьох різних систем нелінійних алгебраїчних рівнянь розміром К. 

Загальний час послідовної реалізації блокових методів із правилом Рунге, Т, 
складається з суми часу обчислення розв'язку з одинарним кроком в блоці п плюс 
час обчислень на апроксимації з половинним кроком в п-му 1 (п --1)-му блоках. 
Оскільки для здобуття кожного з трьох розв'язків реалізується свій ітераційний про- 
цес, введемо наступні позначення. 


Нехай 11 - гранична кількість ітерацій для знаходження апроксимації роз- 
(1) (2) 


пі ? па ,іС 


в'язку у,;, 12 - для розв'язку ин і І3 - для у Тоді, відповідно, поточне число 


ітерацій, що забезпечує достатню для кожної з даних задач точність, позначимо: 


п, паї, 1-13. 
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Уп, У, Уні/2 бо ЯКУ, Упи 
Хи,0 п Ха, Хи Ж /2 Хи,к-І п Хи,К 
вої) 
пк 
(2) (2) (2) (2) (2) (2) (2) са) 
Уп,д п! Уп,2 пк тні Упеік-2 руна прав нік 
Хид 1/2 0 Ху Хи2 Ха к Хині Хич 1-2 ли он 
ТО) ТО) 
п К пяі,К 


Рисунок 2 - Схема використання правила дублювання кроку для однокрокового 
блокового « -точкового паралельного методу 


Час обчислень послідовного алгоритму блокових методів плюс правило Рунге 
включає час на визначення нульових, а також подальших ітерацій розв'язання: 


То «ІКП 2 зІЗу 21 Т, ЛО ЗІЗ ОЮ АЮ 9, (6) 


де Т, - час обчислень правої частини ЗДР, 1,, - час обчислень операції із плаваю- 


чою точкою. 

Обчислювальна схема паралельного блокового А -точкового методу з контро- 
лем локальної апостеріорної похибки за правилом Рунге наведена на рис. 3. Тут ко- 
жен процесор обчислює вирішення в одному вузлі сітки, тобто максимальний 
ступінь паралелізму обчислювальної схеми складає Рор - К. Для кожного з трьох зав- 


дань послідовно виконуються обчислення нульової і подальших ітерацій. При цьому 
нульова ітерація складається з наступних кроків: обчислення нульового наближення 
паралельно в кожному вузлі нового блоку за першою формулою системи (4); 
обчислення правої частини ЗДР від нульового наближення; множинний обмін обчис- 
леними значеннями правої частини за типом «усі-усім». Потім /ї раз виконується 
аналогічна група операцій для подальших ітерацій: 

1) обчислення чергового наближення в кожному вузлі нового блоку за другою 
формулою (4), базовою операцією є множення матриці А на вектор значень правих 
частин ЗДР; 

2) обчислення правої частини ЗДР від отриманого наближення і множинний 
обмін значеннями правої частини за типом «усі-усім». 
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ПРОЦЕСОРНЕ ПОЛЕ, р 


ОБЧИСЛЕННЯ 0-ї ІТЕРАЦІЇ РОЗВ'ЯЗАННЯ У ВУЗЛАХ БЛОКУ п, у"? уі- 1 
МНОЖИННА ПЕРЕДАЧА ДАНИХ гусі-усім", /ху; У/о),і « 1,К 


п,і, 0 


МНОЖИННА ПЕРЕДАЧА ДАНИХ "усі-усім", /х,, У" | )ічїк 


п, і, - 1 


ОБЧИСЛЕННЯ //-ї ІТЕРАЦІЇ РОЗВ'ЯЗАННЯ У ВУЗЛАХ БЛОКУ п, пд да. «жк 


ОБЧИСЛЕННЯ  0-ії ІТЕРАЦІЇ РОЗВ'ЯЗАННЯ У ВУЗЛАХ БЛОКУ п, у"? огіт ік 
МНОЖИННА ПЕРЕДАЧА ДАНИХ "усі-усім", /ах,і, Ди 9дінік 


МНОЖИННА ПЕРЕДАЧА ДАНИХ "усі-усім", Гр У АізІК 


ОБЧИСЛЕННЯ /2-ї ІТЕРАЦІЇ РОЗВ'ЯЗАННЯ У ВУЗЛАХ БЛОКУ п, ок 


ОБЧИСЛЕННЯ 0-ї ІТЕРАЦІЇ РОЗВ'ЯЗАННЯ У ВУЗЛАХ БЛОКУ пчі,у? | і-і, 


пч1,і0? 


МНОЖИННА ПЕРЕДАЧА ДАНИХ "усі-усім", бо, 1, У одієтк 


МНОЖИННА ПЕРЕДАЧА ДАНИХ "усі-усім", бить | ДізЇк 


п-к1,і13-1 


ОБЧИСЛЕННЯ /3-ї ІТЕРАЦІЇ РОЗВ'ЯЗАННЯ У ВУЗЛАХ БЛОКУ ип-/, у", зізік 


пУРТЕМ 


п 


Рисунок 3 - Обчислювальна схема паралельного алгоритму блокового методу 
з контролем локальної похибки за правилом Рунге 


Таким чином, час паралельних обчислень Т. за схемою (5) із локальною 


р,сотр 
точністю О(""""7) у вузлах відповідних сіток складає: 
3 3 
Т. р 7 СОЛОУ ТЬ ГУ (2 5)чн41НЮ, (7) 
і«і і-І 


Для реалізації обмінів потрібно виконання групових операцій пересилань за ти- 
пом «усі-усім», оцінку часу виконання Т, жу, ЦІЄЇ ОПСрації для різних топологій наве- 
дено у |7, (51: 


же | ''''4090909090900--9-«Йскусственньй интеллект» 32009 


Паралельні неявні блокові методи чисельного розв'язання... зн 


й 7 «Діна і Таї- 10- а СР) (3) 


Потенційні характеристики паралелізму запропонованого методу можна обчис- 
лити за числом звернень до правої частини ЗДР. При Т, »ї,, 


5 
яу кудної| т | но СТ, |еК, Ера, 
Р 


У рої 


тобто має місце практично лінійне прискорення 1 одинична ефективність. Такі ж 
потенційні характеристики можуть бути отримані 1 у разі, коли права частина за ча- 
сом обчислення сумірна з часом виконання однієї операції з плаваючою точкою. Реаль- 
ні динамічні характеристики отриманого паралельного алгоритму істотно залежать 
не лише від параметрів задачі 1 алгоритму, але і від ефективності організації міжпро- 
цесорних зв'язків 1 визначаються співвідношеннями: 


3 3 
(ю У ічн2ТЬ НГУ НОЮ АЮ Зк, 
5 во М'НнНЬЩБНЬННЗ838|ь«»-пШШрШ''- ї, (9) 
С і 2)-Т, ГУ ЛО 5)41А,, | 32 (ЗТ (р) 
іч іі іі 


«еУміжау т ТУЛОЮ нка, 
Ве о (10) 
кн То чу (жа 5)ч41, З улно| "йо 


Аналіз теоретичного виконання і обчислювальний експеримент показують, що 
для виконання групових обмінних операцій в запропонованому алгоритмі ефектив- 
ними є топології гіперкуб і тор (рис. 4), гірший варіант з'єднання процесорів - кільце. 


Доля ен обміну даними 


кільце гіперкуб 


Рисунок 4 - Доля обмінів до спільного часу виконання блокового методу 
із правилом Рунге для різних топологій 


Окрім топології з'єднання, на величину часу міжпроцесорних обмінів і дина- 
мічні характеристики паралелізму істотний вплив мають: тип паралельної архітек- 
тури 1 визначені ним машинозалежні константи обміну, такі, як латентність, /,, і час 


передачі одного слова, г, (рис. 5). Із зростанням величини латентності кому- 
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нікаційного середовища час на реалізацію обмінів збільшується, а прискорення і ефек- 


тивність алгоритму зменшуються Т 7, Я -5415 5, Аналогічні залежності зв'язу- 


,сотт 


ють динамічні характеристики і час передачі одного слова: 171, ТТ, Е 5 ме. 


зсотт 
Проте величина латентності є найбільш істотним параметром, ступінь впливу швид- 
кості передачі даних, як правило, зростає при збільшенні об'ємів переданих даних. 


нь по оо 1 0 


о о о ооо 


(99 


Рисунок 5 - Залежність коефщієнта ефективності блокового методу 
з правилом Рунге від значення латентності 


Для даного алгоритму обчислення є однорідними, і, як результат, коефіцієнт 


ефективності для 51МЮО-архітектур за інших рівних умов вище, ніж для МІМІР-систем 
за рахунок меншого значення латентності мережі (рис. б). 


ЗІМО -архитектура МІМЬ -архитектура 


Рисунок 6 - Залежність коефіцієнтів ефективності блокових методів для ЗДР 
з правилом Рунге від числа точок в блоці та складності правої частини 


З тимчасових характеристик алгоритму 1 початкової задачі випливає, що якість 


паралелізму найбільш істотно залежить від необхідного об'єму обчислень на реалі- 
зацію правої частини (1) і кількості точок в одному блоці. Залежності реальних 
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Паралельні неявні блокові методи чисельного розв'язання... зн 


коефіцієнтів прискорення і ефективності паралельного процесу контролю локальної 
похибки на основі правила Рунге від числа точок блоку при зростанні складності 
правих частин ЗДР представлені за допомогою рис. 7. Очевидно, чим складніше права 


частина ОДУ, тим краще характеристики паралелізму: ТТ Й зЇ55ТЕ, і одно- 
часно чим більше розмірність блоку, яка збігається з числом процесорів, тим більше 
прискорення і менша ефективність даного методу: | К.оаТ роьТ5-мфЕ. 
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Рисунок 7 - Коефіцієнти прискорення і ефективності 
блокового методу з правилом Рунге, рак 


Таким чином, найкращі характеристики паралелізму при розв'язанні нелінійної 
задачі Коші для одного рівняння блоковими методами з контролем локальної 
похибки за правилом Рунге досягаються для будь-якої паралельної архітектури, ве- 
ликої розмірності задачі, складної правої частини і високошвидкісних мереж передачі 
інформації. 


Висновки 


Розроблені паралельні алгоритми інтегрування нелінійних СЗДР на основі бло- 
кових однокрокових |7-9| методів реалізовано із використанням мови програмування 
СН на одному персональному комп'ютері у режимі емуляції та мережі із ПЕОМ. 
Обчислювальний експеримент у даній роботі було реалізовано на базі бібліотеки 
Атєоппе Майопа! ШлЬгагу МРІСН-1.2.5, однієї з найбільш відомих реалізацій стан- 
дарту МРІ для О5 У/іпдомз. Всі тимчасові характеристики алгоритмів визначалися з 
використанням функції МРІ Баггіег. Для скорочення часу виконання колективних 
операцій обміну використовувалися алгоритми покоординатної маршрутизації. Тесту- 
вання алгоритмів і відповідних програмних модулів проводилося на системах 
звичайних диференційних рівнянь, що запропоновані для досліджень аналогічних 
послідовних алгоритмів НДОЦ МГУ |10). 

Подальші дослідження направлені на порівняння неявних однокрокових 
блокових методів із повністю неявними методами Рунге - Кутти для прискорення 
розв'язання жорстких динамічних задач, що описуються системами звичайних дифе- 
ренційних рівнянь, а також аналіз масштабованості отриманих паралельних алгоритмів. 
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И.А. Назарова 

Параллельньже неявньже блочньт6е методьт численного решения жестких динамических задач 

с сосредоточенньми параметрами 

Предложеньт параллельньгве неявньте одношаговьгю"е блочньгве методьт численного решения жесткой задачи 
Коши с оценкой локальной апостериорной погрешности. Разработаньт схемьт отображения метода на 
параллельнье структурьт с распределенной памятью и топологиями: кольцо, решетка/тор, гиперкуб. 
Исследовань потенциальньгй и реальньй параллелизм, определень классьт параллельньгх систем для 
зффективной реализации вьтчислительного процесса на основе разработанньтх методов. 


І.А. Масагоуа 

Тпе Рагаї!еі Птріїсіє Віоск Меноаз ої Хитегіса! 5о1ибйіоп ої 5Сіїї Рупатіс Таз5К5 

ур "Фе Сопсепігатед Рагатеіег5 

Тре рагаПе! арісії опе-яїер Біоск плекродз ої питегіса! десізіоп ої 50 Сапспу'є ргобіет умії е5ітайопя ої 
Їосаї а розіегіог еггог аге ойегей. ТПеге аге Феуеіоред Ше з5сретез ої пеїподз гейесійоп оп Ше рагаПеі 
зігистиге8 мії. фі5іібиге плетогу апа короїіобієз: гіпє, пле5р/ оги8, пурегсибе. ТПеге аге гезеагспед Ше 
рокепіа! апа геа! рагайеПзт апа аге сегіаїп сіаз55е5 ої їре рагаПеї 5узкеті5 Тог еНесіує ограпігайоп ої 
саїсціабіе ргосе55е5 оп ре Базі8 об ре деуеїоред теїпоадз. 
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